Reasoning, as an essential ability for complex problem-solving, can provide back-end support for various real-world applications, such as medical diagnosis, negotiation, etc. This paper provides a comprehensive survey of cutting-edge research on reasoning with language model prompting. We introduce research works with comparisons and summaries and provide systematic resources to help beginners. We also discuss the potential reasons for emerging such reasoning abilities and highlight future research directions.
translated by 谷歌翻译
What is a rose, visually? A rose comprises its intrinsics, including the distribution of geometry, texture, and material specific to its object category. With knowledge of these intrinsic properties, we may render roses of different sizes and shapes, in different poses, and under different lighting conditions. In this work, we build a generative model that learns to capture such object intrinsics from a single image, such as a photo of a bouquet. Such an image includes multiple instances of an object type. These instances all share the same intrinsics, but appear different due to a combination of variance within these intrinsics and differences in extrinsic factors, such as pose and illumination. Experiments show that our model successfully learns object intrinsics (distribution of geometry, texture, and material) for a wide range of objects, each from a single Internet image. Our method achieves superior results on multiple downstream tasks, including intrinsic image decomposition, shape and image generation, view synthesis, and relighting.
translated by 谷歌翻译
我们研究了将人类设计师创建的基于图像的,逐步组装手册转换为机器可解剖说明的问题。我们将此问题提出为顺序预测任务:在每个步骤中,我们的模型都读取手册,将要添加到当前形状中的组件定位,并注入其3D姿势。此任务构成了在手动图像和实际3D对象之间建立2D-3D对应关系的挑战,以及对看不见的3D对象的3D姿势估计,因为要在步骤中添加的新组件可以是从前一个步骤中构建的对象。为了应对这两个挑战,我们提出了一个基于学习的新型框架,即手动到执行计划网络(MEPNET),该网络(MEPNET)从一系列手动图像中重建了组装步骤。关键思想是将神经2D关键点检测模块和2D-3D投影算法进行高精度预测和强有力的概括为看不见的组件。 MEPNET在三个新收集的乐高手册数据集和Minecraft House数据集上优于现有方法。
translated by 谷歌翻译
预测以过去观察和电动机命令为条件的未来视觉观察的能力可以使体现的代理能够计划复杂环境中各种任务的解决方案。这项工作表明,我们可以通过掩盖的视觉建模预训练变压器来创建良好的视频预测模型。我们的方法名为MaskVit,基于两个简单的设计决策。首先,为了记忆和训练效率,我们使用两种类型的窗户注意力:时空和时空。其次,在训练期间,我们掩盖了一个可变百分比的令牌,而不是固定蒙版比率。对于推断,MaskVit通过迭代改进生成所有令牌,在该迭代中,我们会在掩码调度函数后逐步降低掩蔽率。在几个数据集上,我们证明了MaskVit优于视频预测中的先前作品,这是参数有效的,并且可以生成高分辨率视频(256x256)。此外,我们通过使用MaskVit在真实机器人上进行计划,证明了推理加速器的好处(最高512x)。我们的工作表明,我们可以通过利用最小的域知识的掩盖视觉建模的一般框架来赋予体现的代理具有强大的预测模型。
translated by 谷歌翻译
新颖的视图合成(NVS)和视频预测(VP)通常被视为计算机视觉中的不相交任务。但是,它们都可以看作是观察空间时代世界的方法:NVS的目的是从新的角度综合一个场景,而副总裁则旨在从新的时间点观看场景。这两个任务提供了互补的信号以获得场景表示形式,因为观点从空间观察中变化为深度的变化,并且时间观察为相机和单个对象的运动提供了信息。受这些观察的启发,我们建议研究时空(背心)中视频外推的问题。我们提出了一个模型,该模型利用了两项任务的自学和互补线索,而现有方法只能解决其中之一。实验表明,我们的方法比室内和室外现实世界数据集上的几种最先进的NVS和VP方法更好地实现了性能。
translated by 谷歌翻译
最近几天见证了针对预训练的语言模型(PTM)的各种知识注入模型。但是,大多数以前的研究都忽略了PTMS自己的能力,其能力存储在参数中。最近的一项研究观察到了饲料远期网络(FFN)中的知识神经元,该神经元负责表达事实知识。在这项工作中,我们提出了一个简单的模型,即Kformer,该模型利用PTMS中存储的知识和外部知识通过变压器FFN层中的知识注入。从经验上讲,两项知识密集型任务,常识性推理(即社会问题)和医学问题答案(即MEDQA-USMLE),表明Kformer可以比其他知识注入技术(例如关注或基于注意的注射)产生更好的性能。我们认为,提出的简单模型和经验发现可能对社区开发更强大的知识注入方法可能有所帮助。代码在https://github.com/zjunlp/kformer中可用。
translated by 谷歌翻译
我们展示了一个新的开源和可扩展知识提取工具包,称为Deepke(基于深度学习的知识提取),支持标准完全监督,低资源少拍摄和文档级方案。 Deepke实现了各种信息提取任务,包括命名实体识别,关系提取和属性提取。使用统一的框架,DeePke允许开发人员和研究人员根据其要求,自定义数据集和模型以从非结构化文本中提取信息。具体而言,DeePke不仅为不同的任务和场景提供了各种功能模块和模型实现,而且还通过一致的框架组织所有组件以维持足够的模块化和可扩展性。此外,我们在\ URL {http://deepke.zjukg.cn/}中介绍一个在线平台,用于实时提取各种任务。 Deepke已经配备了Google Colab教程和初学者的综合文件。我们用演示视频发布\ url {https://github.com/zjunlp/deepke}源代码。
translated by 谷歌翻译
尽管使用StyleGan进行语义操纵的最新进展,但对真实面孔的语义编辑仍然具有挑战性。 $ W $空间与$ W $+空间之间的差距需要重建质量与编辑质量之间的不良权衡。为了解决这个问题,我们建议通过用基于注意的变压器代替Stylegan映射网络中的完全连接的层来扩展潜在空间。这种简单有效的技术将上述两个空间整合在一起,并将它们转换为一个名为$ W $ ++的新的潜在空间。我们的修改后的Stylegan保持了原始StyleGan的最新一代质量,并具有中等程度的多样性。但更重要的是,提议的$ W $ ++空间在重建质量和编辑质量方面都取得了卓越的性能。尽管有这些显着优势,但我们的$ W $ ++空间支持现有的反转算法和编辑方法,仅由于其与$ w/w $+空间的结构相似性,因此仅可忽略不计的修改。 FFHQ数据集上的广泛实验证明,我们提出的$ W $ ++空间显然比以前的$ w/w $+空间更可取。该代码可在https://github.com/anonsubm2021/transstylegan上公开提供。
translated by 谷歌翻译
关键场景生成需要在逻辑方案中从无限参数空间中找到关键参数组合的能力。现有解决方案旨在探索初始场景中参数的相关性,而无需考虑操作序列中的参数之间的连接。如何对动作序列进行建模并考虑方案中不同动作参数的影响仍然是解决问题的关键挑战。在本文中,我们提出了一个框架,以生成关键方案,以加快评估特定任务。具体而言,我们首先提出了一种描述语言BTSCENARIO,以建模包含地图,参与者,参与者之间的相互作用的场景。然后,我们使用强化学习来搜索关键参数的组合。通过采用动作掩码,可以防止非固定长度和序列在参数空间中的影响。我们证明,在各种情况下,提出的框架比随机测试和组合测试方法更有效。
translated by 谷歌翻译
从点云输入中的6-DOF GRASP学习中取得了巨大的成功,但是由于点集无秩序而引起的计算成本仍然是一个令人关注的问题。另外,我们从本文中的RGB-D输入中探讨了GRASP的生成。提出的解决方案Kepoint-GraspNet检测图像空间中Gripper Kepoint的投影,然后用PNP算法恢复SE(3)姿势。建立了基于原始形状和抓住家族的合成数据集来检查我们的想法。基于公制的评估表明,我们的方法在掌握建议的准确性,多样性和时间成本方面优于基准。最后,机器人实验显示出很高的成功率,证明了在现实世界应用中的想法的潜力。
translated by 谷歌翻译